Compresión de LLM eliminando bloques con optimización binaria
Descubre cómo comprimir modelos de lenguaje eliminando bloques con optimización binaria. Logra un 23% más en MMLU al 50% de compresión. Eficiente y general.
Descubre cómo comprimir modelos de lenguaje eliminando bloques con optimización binaria. Logra un 23% más en MMLU al 50% de compresión. Eficiente y general.
Comprime LLMs eliminando bloques con optimización binaria. Logra hasta 23% más en MMLU. Eficiente para Llama-3.3 y otros.